لماذا كثير من الباحثين يطرحون فرضية خاطئة او مايسمى بـ null hypothesis ؟!
العلوم التطبيقية تحتاج إلى بيانات، و جميع البيانات تخضع للمتغيرات معينة. لذلك تُستخدم الأساليب الإحصائية لعمل استنتاجات حول الأنماط أو التأثيرات الحقيقية التي تكمن وراء البيانات العشوائية.
غالبا يستخدم معظم العلماء طريقتين إحصائيتين وثيقتي الصلة لعمل استنتاجات من بياناتهم: اختبار الدلالة واختبار الفرضيات. يسعى مختبرو الدلالة ومختبرو الفرضيات إلى تحديد ما إذا كانت الأنماط التي تبدو مثيرة للاهتمام ("التأثيرات او مايسمى بـ effects ") في بياناتهم حقيقية أم خادعة.
الخطوة الأولى في هذه العملية هي تسمية "الفرضية الخاطئة او null hypothesis " تفترض عدم وجود تأثير. ثم تُستخدم الإجراءات الرياضية لتقدير احتمالية نشوء تأثير على الأقل بحجم ذلك الذي لوحظ. إذا كانت الفرضية الخاطئة صحيحة يسمى هذا الاحتمال " القيمة الاحتمالية او P-Value".
اختبار الدلالة:
إذا كانت p صغيرة (تقليديا أقل من 0.05 ، أو 5٪) عندئذٍ يدعي اختبار الدلالة أنه من غير المحتمل أن يكون تأثير الحجم قد نشأ عن طريق الصدفة وحدها. ويقال أن مثل هذه الآثار "ذات دلالة إحصائية". قام احدث الباحثين واسمه السير رونالد فيشر في عشرينيات القرن الماضي بتطوير أساليب معاصرة لتوليد قيم القيمة الاحتمالية او P-Value ، فسر قيم القيمة الاحتمالية او P-Value الصغيرة على أنها مؤشر على تأثيرات "حقيقية" وليست صدفة وكانت هذه هي الفكرة المركزية في اختبار الأهمية.
اختبار الفرضيات:
تعرضت اختبارات الدلالة للهجوم منذ أن تم تطويرها لأول مرة. جادل اثنان من علماء الرياضيات اللامعين جيرزي نيمان وإيجون بيرسون بأن تفسير فيشر لـ القيمة الاحتمالية او القيمة الاحتمالية او P-Value كان خاطئاً. لقد طوروا نهجًا يسمى اختبار الفرضية حيث تعمل القيمة القيمة الاحتمالية او P-Value فقط على مساعدة الباحث على الاختيار الأمثل بين الفرضية الصفرية والفرضية البديلة: إذا كانت القيمة الاحتمالية او P-Value أكبر من أو تساوي (0.05) يختار الباحث أن صدق الفرضية الصفرية. إذا كانت القيمة الاحتمالية او P-Value أقل من ذلك يختار الباحث تصديق الفرضية البديلة. يؤدي اعتماد نهج اختبار الفرضيات إلى تقليل معدل اتخاذ خيارات غير صحيحة.
أشار النقاد إلى أن هناك قيمة محدودة في معرفة أن الأخطاء قد تم تقليلها إلى الحد الأدنى على المدى الطويل. كما ان العلماء لا يريدون فقط معرفة أنهم كانوا مخطئين بقدر ما يريدون معرفة ما إذا كان بامكانهم تصديق تجربتهم الأخيرة ! كان فيشر أكثر المنتقدين لاختبار الفرضيات و الذي طارد نيمان في المطبوعات لعقود. ربما نتيجة لعناد فيشر إلى حد كبير لم يتم حل المشكلات التي قسمت اختبار الدلالة واختبار الفرضيات.
الاستدلال الإحصائي:
تبنى العلماء بحماس اختبار الدلالة واختبار الفرضيات لأن هذه الأساليب يبدو أنها تحل مشكلة أساسية: كيفية التمييز بين التأثيرات "الحقيقية" والعشوائية أو الصدفة. لسوء الحظ فإن اختبار الدلالة واختبار الفرضيات لهما قيمة علمية محدودة - لذلك غالبًا ما يطرحون سؤالًا خاطئًا ويعطون دائمًا إجابة خاطئة والتي أسيء تفسيرها على نطاق واسع.
ضع في اعتبارك تجربة سريرية مصممة للتحقيق في فعالية العلاج الجديد لبعض الأمراض. بعد إجراء التجربة ، قد يسأل الباحثون "هل التأثير الملحوظ للعلاج حقيقي أم أنه قد نشأ عن طريق الصدفة فقط؟" إذا كانت قيمة القيمة الاحتمالية او P-Value المحسوبة أقل من 0.05 فقد يزعم الباحثون أن التجربة أثبتت أن العلاج كان فعالًا. ولكن حتى قبل إجراء التجربة كنا نتوقع بشكل معقول أن يكون العلاج "فعالًا" - فجميع الأدوية تقريبًا لها بعض الإجراءات الكيميائية الحيوية وجميع التدخلات الجراحية لها بعض التأثيرات على الصحة. جميع التدخلات الصحية تقريبًا لها بعض التأثير، فقط أن بعض العلاجات لها تأثيرات كبيرة بما يكفي لتكون مفيدة والبعض الآخر لها تأثيرات تافهة وغير مهمة.
إذن ما الفائدة من إثبات أن الفرضية الصفرية غير صحيحة تجريبياً؟ يحتاج الباحثون الذين يجرون تجارب سريرية إلى تحديد ما إذا كان تأثير العلاج كبيرًا بما يكفي لجعل التدخل جديرًا بالاهتمام وليس ما إذا كان للعلاج أي تأثير على الإطلاق.
هناك ايضاً مشكلة تقنية أكثر وهي أن القيمة الاحتمالية تخبرنا باحتمالية مراقبة البيانات بالنظر إلى أن الفرضية الصفرية صحيحة. لكن يعتقد معظم العلماء أن القيمة الاحتمالية او P-Value يخبرهم باحتمال صحة فرضية العدم بالنظر إلى بياناتهم. قد يبدو الاختلاف دقيقًا ولكنه ليس كذلك. إنه مثل الفرق بين احتمال أن يكون رئيس الوزراء ذكرًا واحتمال أن يكون الذكر هو رئيس الوزراء!
نهج أفضل الاستدلال الإحصائي:
هناك بدائل لاختبار الدلالة واختبار الفرضيات. البديل البسيط هو "التقدير". يساعد التقدير العلماء على طرح السؤال الصحيح ويقدم إجابات أفضل (أكثر قابلية للدفاع من الناحية الإحصائية إن لم تكن أكثر دقة من الناحية الرياضية).
نهج آخر مختلف للغاية هو تحليل "بايزي". يحاول الإحصائيون في بايز تحديد عدم اليقين واستخدام البيانات لتعديل يقينهم بشأن معتقدات معينة. من نواحٍ عديدة تتفوق طرق بايزي على الطرق الكلاسيكية، لكن العلماء كانوا بطيئين في تبني مناهج بايزي.
يُساء تفسير اختبار الدلالة واختبار الفرضيات على نطاق واسع لدرجة أنهما يعيقان التقدم في العديد من مجالات العلوم. ما الذي يمكن عمله للإسراع في ازالتهم؟ يجب على كبار العلماء التأكد من أن الاستكشاف النقدي لأساليب الاستدلال الإحصائي هو جزء من تدريب جميع طلاب البحث. لا ينبغي أن يكون مستهلكو البحث راضين عن العبارات التي تفيد بأن "X فعال" ، أو "Y له تأثير" ، خاصة عندما يكون دعم مثل هذه الادعاءات قائمًا على p.